Logistic Regression

逻辑回归,能融合多种特征。

y=f(Wx+b),y{0,1},fy=f(W^x+b), y \in \{0, 1\}, f 是 link function
线性分类

  • 硬分类 :<-> 直接输出输出对应的分类 y{0,1}y \in \{0, 1\}

    • 线性判别分析[[Fisher]]

    • [[感知机]]

  • 软分类 :<-> 产生不同类别的概率 y[0,1]y \in [0, 1]

    • 概率生成式(连续),类别先验 [[Gaussian Discriminant Analysis]] GDA [[Naive Bayes Classifier]]

      • P(y=0x),P(y=1x)P(y=0|x), P(y=1|x) 的大小关系
    • 概率判别式(离散) Logisitic Regression

      • 直接对 $$P(Y|X)$$ 建模

逻辑回归

  • P(Y|X, \theta)=p_1^yp_0^{1-y}$$ 服从[\[\[Bernoulli Distribution\]\]](/post/logseq/Bernoulli%20Distribution.html) + 求 MLE 转化成 Cross Entropy

  • 取 $$z=\ln \frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2}$$

    • 激活函数 [[sigmoid]] f(z)=11+exp(z)(0,1.0)f(z)=\frac{1}{1+exp(-z)} \in (0, 1.0)

      • 阶跃函数不连续,sigmoid函数光滑,处处可导

      • 数据取值范围从正无穷压缩到 0-1

    • 两类联合概率比值的对数

    • odds 几率代表事件发生和不发生的比值 $$\frac{p}{1-p}$$

    • 对数几率的线性回归

  • P(y=0x)=11+exp(wTx)P(y=0|x)=\frac{1}{1+\exp(-w^Tx)}

  • P(y=1x)=exp(wTx)1+exp(wTx)P(y=1|x)=\frac{\exp(-w^Tx)}{1+\exp(-w^Tx)}

  • MLE $$w=\mathop{argmax} \sum(y_i \log p_1 + (1-y_i)\log p_0)=\mathop{argmax} \sum(y_i \log f(x,w) + (1-y_i)\log (1-f(x,w))$$

    • 等价于 Cross Entropy
  • 多分类

    • softmax regression

    • 参数冗余

  • 多标签:每个标签设计一个分类器

在推荐系统中,LR 当成是一个分类问题处理,通过预测正样本的概率对物品进行排序。将推荐问题转化为预估问题。另外也能使用 [[Pair Wise]]

优点

  • 数学含义:用户是否点击广告是一个经典的掷偏心硬币问题,显然符合伯努利分布

  • 可解释性强

  • 工程化较为简单

[[面试]]

  • LR归一化问题

    • 什么情况可以不归一化 :-> 最小二乘法
    • 什么情况必须归一化 :-> 梯度下降算法
    • [[Wide&Deep]]
  • 提到LR损失函数要能知道交叉熵,为什么是它,以它为损失函数在优化的是一个什么东西,知道它和KL散度以及相对熵的关系

  • 提到LR的求解方法,比如SGD,知道SGD和BGD的区别,知道不同的GD方法有什么区别和联系,二阶优化算法知道什么,对比offline learning和online learning的区别

  • 提到调参,知道模型不同超参数的含义,以及给定一个特定情况,大概要调整哪些参数,怎么调整

  • 提到LR的正则,知道l1l2的原理,几何解释和概率解释

  • LR的分布式实现逻辑是怎么样的,数据并行和模型并行的区别,P-S架构大概是怎么一回事

  • LR作为一个线性模型,如何拟合非线性情况?

    • 特征侧比如离散化,交叉组合,模型比如引入kernel,又可以推广到FM等model上
  • LR 如何解决低维不可分

    • 通过核函数将特征从低维空间转换到高维空间,高维空间中线性可分的几率会变高
作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-10-05

许可协议


网络回响

评论